日本語言語理解ベンチマークJGLUEの構築 〜 自然言語処理モデルの評価用データセットを公開しました
日本語においてはGLUEのようなベンチマークは存在せず
英語のベンチマークでの知見がそのまま日本語にあてはまるかは分からず、日本語のベンチマークが必要不可欠です。
Yahoo!クラウドソーシング利用
この記事では、「タスク」は問題の設定、「データセット」は訓練・検証・テストセットからなる最小の単位を指し、全部まとめたものを「ベンチマーク」と呼んでいます。
3タスク
6データセット
MARC-ja
商品レビューを入力として、ポジティブ(positive)かネガティブ(negative)かを推定するタスク
検証・テストセットについては正解ラベルが妥当であるかをクラウドソーシングで判定し、ラベルをクリーニングしています(訓練セットは数が多いことからクリーニングはしておりません)。
JSTS/JNLI
JSTSは2文間の類似度(0から5までの値をとり、5が最も類似しています)を、JNLIは含意(entailment)、矛盾 (contradiction)、中立(neutral)のいずれの推論関係かを推定するタスク
JSQuAD
SQuADは、数文からなる段落とそれに関連する質問が与えられ、段落から抜き出す形で答えるタスクです。JSQuADはSQuADの日本語版で、Wikipediaの日本語記事を用い、段落に対応する質問とその答えをクラウドソーシングで作成しました。
JCommonsenseQA
CommonsenseQAは常識推論能力を評価するための5択の選択式問題です。JCommonsenseQAはCommonsenseQAの日本語版で、コアとなる選択肢を知識ベースであるConceptNetの日本語部分から抽出し、質問と誤り選択肢をクラウドソーシングで作成しました。
日本語基盤モデルの網羅的評価
全般的には早稲田大 RoBERTa largeモデルが最も性能がよいです。
多言語モデルであるXLM-RoBERTaは早稲田大 RoBERTaよりも少し劣っていますが、多言語モデルは日本語に対しても十分性能を出せています。
JCommonsenseQA 以外についてはベストなモデルは人間のスコアと同等または超えています。